Eine Wortwolke ist geeignet um die häufigst verwendeten Wörter eines Textes zu visualisieren und damit den Schwerpunkt eines Dokumentes abbilden zu können.
Diese App bietet die Möglichkeit die häufigsten Dokumentenformate hochzuladen und schnell zu visualisieren.
Dazu existieren drei verschiedene Visualisierungsarten.
Es bestehen mehrere Möglichkeiten der Visualisierung.
Auch wenn es viele Anpassungsmöglichkeiten gibt, ist das Erstellen einer Wortwolke einfach gehalten.
Notwendig ist lediglich:
Das Speichern der Wortwolke ist möglich durch Rechtsklick > Bild speichern unter.
Weitere Gestaltungsmöglichkeiten sind abhängig von der ausgewählten Darstellungsform.
Notwendig: Upload eines Dokumentes.
Unter Optionen kann die Dokumentensprache geändert werden (deutsch ist als Standard vorbelegt) sowie die Stammformreduktion aktiviert werden.
Begrenzt die Anzahl der verwendeten Wörter pro Wolke. Dabei entspricht die Voreinstellung 100 = 100% der im Text vorhandenen Wörter. 10% entspricht den 10% der Wörter, die am häufigsten auftauchen.
Die Schriftgröße verändert die relative Größe der Wörter zueinander. Je größer dieser Wert, desto mehr Platz benötigt die daraus resultierende Wortwolke.
Verändert die Schriftart der Wörter.
Verändert die Farbe der Wörter. Vorhanden sind drei Kategorien:
Das NRW-Design enthält die RGB-Farben des Corporate Design des Landes NRW.
Mehrfachselektion ist möglich. Zum Entfernen einer gewählten Farbe, diese markieren und mit der Entfernen-Taste oder der Löschen-Taste entfernen.
Die Farben der Kategorie bunt nutzen entweder eine dunkle oder helle Farbpalette.
Info: Sollte die Schriftfarbe der Hintergrundfarbe entsprechen, können Wörter verborgen bleiben.
Verändert die Farbe des Hintergrunds. Vorhanden sind zwei Kategorien:
Das NRW-Design enthält die RGB-Farben des Corporate Design des Landes NRW.
Info: Sollte die Schriftfarbe der Hintergrundfarbe entsprechen, können Wörter verborgen bleiben.
verändert die Form in der die Wortwolke dargestellt wird.
Mögliche Formen sind:
Info: Ist die Leinwandgröße zu klein, kann es sein, dass die Form nicht korrekt dargestellt wird.
Verändert die Leinwandgröße der Wortwolke. Einheiten sind in Pixel.
Sollten sehr viele Wörter oder die Schriftgröße hoch sein, muss die Leinwandgröße dementsprechend angepasst werden.
Text: Was ihr wollt, Shakespeare
Darstellung in Form von Textwolken.
Sollte die Darstellung nicht funktionieren, bitte unterschiedliche Parameter testen.
Notwendig: Upload eines Dokumentes und Eingabe eines Wortes.
Mögliche Parameter:
Begrenzt die Anzahl der verwendeten Wörter pro Wolke. Dabei entspricht die Voreinstellung 100 = 100% der im Text vorhandenen Wörter. 10% entspricht den 10% der Wörter, die am häufigsten auftauchen.
Wort eingeben, welches als Form genutzt werden soll.
Möglich sind Wörter, Zahlen und auch Unicode-Emojis.
Bestätigen mit Enter oder dem OK-Button. Unter Umständen kann die Generierung einige Zeit benötigen. Funktioniert am Besten mit dem Firefox-Browser.
Nach Eingabe des Wortes bitte die Leinwandgröße ändern!
Verändert die Leinwandgröße der Wortwolke. Einheiten sind in Pixel.
Nach Eingabe des Wortes bitte die Leinwandgröße ändern! Sollten sehr viele Wörter oder die Schriftgröße hoch sein, muss die Leinwandgröße dementsprechend angepasst werden.
Verändert die Farbe der Wörter. Vorhanden sind drei Kategorien:
Das NRW-Design enthält die RGB-Farben des Corporate Design des Landes NRW.
Mehrfachselektion ist möglich. Zum Entfernen einer gewählten Farbe, diese markieren und mit der Entfernen-Taste oder der Löschen-Taste entfernen.
Die Farben der Kategorie bunt nutzen entweder eine dunkle oder helle Farbpalette.
Info: Sollte die Schriftfarbe der Hintergrundfarbe entsprechen, können Wörter verborgen bleiben.
Verändert die Farbe des Hintergrunds. Vorhanden sind zwei Kategorien:
Das NRW-Design enthält die RGB-Farben des Corporate Design des Landes NRW.
Info: Sollte die Schriftfarbe der Hintergrundfarbe entsprechen, können Wörter verborgen bleiben.
Text: Landesverfassung NRW
Wörter lassen sich in Form von anderen Bildern darstellen. Notwendig: Upload eines Dokumentes und Upload einer Masken-Datei. Verwendbar sind alle Bilddateien, die folgende Merkmale aufweisen:
Schwarz-Weiß-Format
Auf der schwarzen Fläche des Bildes werden die Wörter dargestellt. Durch Bildbearbeitung in
Paint (Anleitung),
Pain.NET (Anleitung) oder
GIMP (Anleitung)
können so schnell geeignete Masken generiert werden
Bildformat muss PNG sein
ausreichende Anzahl an Wörtern im Dokument
Begrenzt die Anzahl der verwendeten Wörter pro Wolke. Dabei entspricht die Voreinstellung 100 = 100% der im Text vorhandenen Wörter. 10% entspricht den 10% der Wörter, die am häufigsten auftauchen.
Verändert die Leinwandgröße der Wortwolke. Einheiten sind in Pixel. Sollte die Darstellung nicht optimal sein, bitte die Leinwandgröße ändern.
Verändert die Farbe der Wörter. Vorhanden sind drei Kategorien:
Das NRW-Design enthält die RGB-Farben des Corporate Design des Landes NRW.
Mehrfachselektion ist möglich. Zum Entfernen einer gewählten Farbe, diese markieren und mit der Entfernen-Taste oder der Löschen-Taste entfernen.
Die Farben der Kategorie bunt nutzen entweder eine dunkle oder helle Farbpalette.
Häufig gestellte Fragen und Probleme.
Kurze Antwort: JA
Die verwendeten Bibliotheken verwenden Lizenzen die die Nutzung kostenlos ermöglichen.
Die App funktioniert am Besten mit dem Mozilla Firefox Browser.
Sollten Änderungen der Parameter nicht das gewünschte Resultat bringen, bitte die Leinwandgröße ändern.
Rechtsklick > Speichern Unter > Bildname.png
Siehe Einleitung.
Für jeden Aufruf der App wird eine eigene Instanz der App gestartet. Die Apps auf dem Amazon Server sind durch einen eigenen Container voneinander getrennt.
Durch das Schließen der App werden die hochgeladenen Informationen gelöscht. Tatsächlich werden die Dateien nicht auf einen Server hochgeladen, sondern in einem spziellen Pfad auf dem eigenen Rechner abgelegt (temp-Ordner). Dadurch kann die App dann die Dokumente lesen.
Weitere Infos zur Datensicherheit hier.
Bei Bedarf kann die App auch lokal auf eigenen Servern gehostet werden. Dazu bitte das Github Repo nutzen.
Im Internet gibt es einige Anbieter vergleichbarer Software. Hier ist jedoch die Sicherheit der Daten fragwürdig. Insbesondere behördliche und Dokumente mit kritischen Inhalten sollten den geschützten Raum des dienstlichen Netzwerks nicht verlassen.
NRWölkchen kann daher innerhalb des Netzwerks z.B. einer Behörde zentral auf einem Server oder sogar nur auf einem Arbeitsplatzcomputer gehostet werden. Der Zugriff und der Verbleib der Daten wäre so gewährleistet.
Vom Arbeitsplatzcomputer wird mittels Portfreigabe die App im Netzwerk anderen Kolleginnen und Kollegen zugänglich gemacht. Die dafür notwendigen Skripte lassen sich aus dem Github Repository herunterladen. Voraussetzung ist die Statistiksprache R.
Eine Beschreibung der verwendeten Methodik der Aufbereitung der Dokumente sowie der Darstellung der Wortwolken. Quellcode ist im Github repo zu finden.
Die Wortwolken bestehen aus den einzigartigen Wörtern eines Dokumentes.
Dabei werden Dokumente des Typs: PDF, TXT, HTML, RTF, DOCX und DOC akzeptiert. Die Dateien werden bereinigt (z.B. Entfernung von doppelten Leerzeichen, Anführungszeichen oder Zeilenumbrüche). Sollte die Option der Stammformreduktion ausgewählt werden, findet ein Word-Stemming statt. Dabei werden Wörter auf ihre Stammform reduziert. Angewandt wird der Porter-Stemmer-Algorithmus.
Zum Beispiel:
Laufen,lief,liefe --> Lauf, lief, lief
Entdeckungen, Entdeckung --> Entdeckung, Entdeckung
Die Daten werden so wenig wie möglich verändert, allerdings ist es notwendig bestimmte “Füllwörter” sogenannte Stoppwörter. Darunter fallen Wörter, die häufig auftreten und für den Informationsverständnis eines Textes unerheblich sind. Die verwendeten Stoppwörter sind von der Auswahl der Dokumentsprache abhängig.
Zum Beispiel:
| Sprache | Wörter |
|---|---|
| deutsch | dass, und, weil, zwar |
| englisch | a, an, the, and, but |
Das tm-Package bringt eine eigene Liste an sogenannten stopwords() mit sich, die ich derart angepasst habe, dass ich zusätzlich zu den bereits vorhanden stopwords() diese um großgeschriebene Wörter ergänzt habe. Eine Übersicht aller Stoppwörter ist im Abschnitt Stoppwörter zu finden.
Interpunktion wird entfernt.
Abschließend werden die jeweiligen Wörter gezählt. Das Ergebnis der Analyse wird zudem in einer Tabelle dargestellt.
Die Visualisierung erfolgt in Form von Wortwolken (Wordclouds). Hierzu wird das package wordclouds2 verwendet.
Die Schriftgröße der einzelnen Wörter verhält sich proportional zur Quadratwurzel der Anzahl der Nennung. Damit ist die Fläche der Buchstaben proportional zum Quadrat der Anzahl der Nennung.
\[ F = \sqrt(Wort_n) \]
Schreibe mir!
Probleme und Bugs gerne per E-Mail oder als Push Request via Github.
Die App NRWölkchen verwendet zur Generierung der Wortwolken das R-Package wordclouds2, die unter der GPL-2-Lizenz veröffentlicht wurde. Im Hintergrund arbeitet die Javascript-Bibliothek wordcloud2.js, die unter MIT-Lizenz veröffentlicht wurde.
Damit ist die Verwendung kostenfrei.
Aus den Dokumenten entfernte Wörter nach ausgewählter Sprache:
Dawei Lang (2020). wordcloud2: Create Word Cloud by htmlWidget. R package version 0.2.2. https://github.com/lchiffon/wordcloud2
R Core Team (2020). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/.
Ingo Feinerer and Kurt Hornik (2019). tm: Text Mining Package. R package version 0.7-7. https://CRAN.R-project.org/package=tm
Milan Bouchet-Valat (2020). SnowballC: Snowball Stemmers Based on the C ‘libstemmer’ UTF-8 Library. R package version 0.7.0. https://CRAN.R-project.org/package=SnowballC
Hadley Wickham, Romain François, Lionel Henry and Kirill Müller (2020). dplyr: A Grammar of Data Manipulation. R package version 0.8.4. https://CRAN.R-project.org/package=dplyr
Rinker, T. W. (2018). textreadr: Read Text Documents into R version 0.9.0. Buffalo, New York. http://github.com/trinker/textreadr
Winston Chang, Joe Cheng, JJ Allaire, Yihui Xie and Jonathan McPherson (2020). shiny: Web Application Framework for R. R package version 1.4.0.2. https://CRAN.R-project.org/package=shiny
Winston Chang (2018). shinythemes: Themes for Shiny. R package version 1.1.2. https://CRAN.R-project.org/package=shinythemes
Winston Chang and Barbara Borges Ribeiro (2018). shinydashboard: Create Dashboards with ‘Shiny’. R package version 0.7.1. https://CRAN.R-project.org/package=shinydashboard
Victor Perrier, Fanny Meyer and David Granjon (2020). shinyWidgets: Custom Inputs Widgets for Shiny. R package version 0.5.1. https://CRAN.R-project.org/package=shinyWidgets
Xie Y, Cheng J, Tan X (2020). DT: A Wrapper of the JavaScript Library ‘DataTables’. R package version 0.12. https://CRAN.R-project.org/package=DT.